Lifting the Curse of Multilinguality by Pre-training Modular Transformers

https://gyazo.com/58739452292513463d6e94cead40aec8

NACCL22

多言語を扱うモデルにおいて, 言語の数を増やせば増やすほど精度が下がる「the curse of multilinguality」(多言語の呪い)という現象が存在する

この「多言語の呪い」を対処するモデルとしてX-MODを提案

概略

言語ごとにbottleneck型のモジュールを用意し, 言語ごとにスイッチさせる

それ故, 拡張は容易で, 学習・推論時のコストはかからない

また, 新たな言語を追加するのも容易い

https://gyazo.com/17c7d0983d31741232d266fc4157a03a

share型とX-Modを定量的に比較

言語を増やしてもperplexity及びperformanceは悪化せず, むしろ成長する

https://gyazo.com/ce7bbea671ae4aaa118a9a4bb367bdc4

pretrain時の学習データセットはCC100で, NLI, NER, QAで実験

下流タスクはすべて英語でfine-tuningし, 評価は多言語で実施

例えばQAだと, SQuADで学習し, XQuADとMLQAで実験

結構良いカンジ

既知言語

https://gyazo.com/1ba10be20c71521d17c511c74b054a15

未知言語

https://gyazo.com/959a37b377717b88ba6813e011ca3ec3

言語について

pretrainで使う言語と, 新たに追加する言語の２タイプ存在

https://gyazo.com/4ad7453d5942be27ca6b75160597f8aa